1
Ландшафт передовых генеративных ИИ
PolyU COMP5511Lesson 11
00:00

Ландшафт передовые генеративные ИИ эволюционировал от изолированных монолитных моделей к многоуровневой экосистеме, определяемой составными системами ИИ. Этот сдвиг уходит от простого вероятностного предсказания токенов к системам, которые координируют основные модели (ФМ), модульные плагины и мультимодальную синтезацию.

Вычислительная / облачная инфраструктураLLMДиффузияАудио / кодУправление и агентный слой

Таксономия генеративной стека

  • Слой инфраструктуры: аппаратная основа (GPU/TPU) и облачные сервисы, обеспечивающие огромные вычислительные мощности для обучения и высокоскоростного вывода.
  • Слой моделей: основные модели (ФМ), такие как GPT-4, Llama 3 и Stable Diffusion, которые служат специализированными двигателями для различных модальностей.
  • Слой управления: фреймворки, управляющие логикой, потоком данных и извлечением, переходящие от моделей с «замороженными» весами к системам с реальным временем контекстного осознания.

Совмещение модальностей

Технический тренд сосредоточен на объединении архитектур — в первую очередь моделей Трансформеров и диффузии — позволяя создать общее скрытое пространство. Это позволяет использовать единый унифицированный интерфейс, где текст, изображения и видео обрабатываются как непрерывный поток информации, математически представленный как отображение между различными скрытыми многообразиями $M_{text} \leftrightarrow M_{visual}$.

Структурная эволюция
Мы переходим от моделей «закрытой книги», которые зависят исключительно от параметров обучающих данных $\theta$, к системам «открытой книги», которые используют состояние внешней среды $E$ для решения сложных задач рассуждений через $P(y|x, E)$.
Реализация на Python